查看原文
其他

AlphaStar冲上《星际争霸II》宗师是因为手速够快吗?| Oriol Vinyals 独家解说视频

Nature自然科研 Nature Portfolio 2022-05-18

点击上方蓝字,关注我们!

原文作者:Dan Garisto

DeepMind的AlphaStar在这款即时科幻电子游戏中已经能与人类高手一较高下。

今年夏天 ,科幻电子游戏《星际争霸2》的玩家遇到了一个不同寻常的对手。一个叫做“AlphaStar”的人工智能(AI)——出自Google旗下AI公司DeepMind——在登录欧洲服务器之后获得了宗师等级。这意味着它站到了该地区的九万名玩家中前0.15%的位置。

《星际争霸2》的玩家们在充满未来风格的战场上对决。图片来源:SeongJoon Cho/Bloomberg/Getty

DeepMind于10月30日在《自然》杂志[1]上发表了研究结果,证明AI可以在《星际争霸2》最高级的赛场上同人类玩家一争高下(点击查看:新的《星际争霸II》大师的诞生 |《自然》论文)这是一个备受欢迎的在线策略游戏,其中玩家需要扮演三个阵营之一:人族Terran、神族Protoss和虫族Zerg,并在一个充满未来风格的战场上互相战斗。


Deepmind此前为国际象棋和围棋创造过世界领先的AI。由于《星际争霸2》策略上足够复杂,并且节奏很快,因此他们将这个游戏当成了寻找通用AI的下一个目标。所谓通用AI,即能够学习或理解所有人类能做到的事情的AI。


 “我没想到AI在这个领域这么快就超越人类了。还以为至少得再要几年呢。”俄勒冈州立大学的AI研究者Jon Dodge说。


在《星际争霸2》里,熟练的玩家可以分心多用,一边管理资源,一边执行复杂的战术动作,最终在战略上击败对手。专业玩家会以超高手速玩这个游戏,每分钟内做出超过300个的行动。DeepMind的AI背后的机器学习原理依赖于人工神经网络。它能从大规模数据集中识别出模式,而不仅仅是依赖具体的指示。


Deepmind于2018年12月首次开始让AlphaStar和高水平玩家在实验室内进行一系列测试比赛。AI面对的是两名职业玩家,并且击败了他们。但是批评者认为这种表演赛并不是公平的战斗,因为AlphaStar在速度和准确性上都超越了人类。


因此,在让AlphaStar走出实验室进入《星际争霸2》的欧洲服务器之前,团队将AI的反应速度做了限制,以便让比赛更为公平。7月,玩家收到通知,让他们选择是否愿意匹配到AI对手。为了能进行单盲实验,DeepMind隐藏了AlphaStar的真实身份。


 “我们希望这个实验能有类似单盲的效果。”AlphaStar项目的主管之一David Silver说,“我们真的希望能在这些条件下打游戏,并得到‘这群人水平怎么样’的真实感受 。”


AlphaStar的训练卓有成效:它碾压了低等级的对手,最终在与高等级玩家的对抗中获得了90场61胜的战绩。

复杂度的挑战

《星际争霸2》的复杂度给AI带来了巨大的挑战。和象棋不同,《星际争霸2》中双方的军队有上百个单位,这些“棋子”会同时、实时地移动,而不是一来一往的回合制。象棋的棋子只有有限的移动方式,而AlphaStar在任何时刻都有10^26种可以选择的行动。此外,《星际争霸2》是一种不完全信息的游戏——玩家通常看不到对手在做什么,因此就无法预测下一步。


九年前,研究者们开始举办一项每年一届的比赛,用《星际争霸》和《星际争霸2》的AI互相对决。但是和AlphaStar不同,大多数AI都依靠硬编码的规则,而不是通过神经网络自我训练。AlphaStar的主管之一Oriol Vinyals之前就是2010年第一届比赛获胜团队中的一员,那支团队来自加州大学伯克利分校。


 “当时我就开始想,可能是不是该做做[机器]学习,但那个时候还太早了。”Vinyals说。


2016年,Vinyals加入了DeepMind。他开始研究可以自学《星际争霸2》的AI。AlphaStar的训练从模仿将近一百万盘的人类对局开始。为了让AlphaStar的比赛水平提升得更快,DeepMind创立了一个联赛,让不同版本的AI互相对决。这种方法对《星际争霸2》这样的游戏很有意义,因为和现实生活中其他很多的AI应用场景一样,没有哪种策略是绝对最优的,帝国理工学院的AI研究者Kai Arulkumarana说。

思维敏捷的人类玩家

DeepMind还给AlphaStar加了限制,以保证AI确实是在思考上胜过人类对手,而不只是手速更快。快速点击能带来游戏内的优势,因此以超越人类手速来点击的电脑就可能会在智力和策略都有所不及的情况下战胜人类。所以DeepMind将AlphaStar的反应速度限制在了人类老手的水平上。


在这些条件下,AlphaStar经过了27天的训练,就排进了欧洲服务器的前0.5%。


但是,在50场游戏之后,DeepMind碰到了钉子。有些玩家注意到,暴雪网站上有三个账号在差不多的时间范围内进行的《星际争霸2》场次完全相同——这正是AlphaStar的三个秘密账号。玩家在观看游戏回放中注意到,这些账号做出了一些对人类玩家来说极其困难的行动——甚至不一定可能的行动。为此,DeepMind使用了一些小招数让实验重归单盲,让玩家无法发现AlphaStar,例如定期切换账号。


AlphaStar的最终版本经历了总计44天的训练,期间经常会碰到职业玩家。虽然AlphaStar不像围棋和象棋AI一样击败了世界上最顶尖的选手,但DeepMind认为它已经达标了,并宣布它完成了《星际争霸2》的挑战。


其他AI科学家还没有完全认可说AlphaStar可以宣告获得全面胜利。加拿大纽芬兰纪念大学的AI研究者Dave Churchill认为,AlphaStar还存在不少弱点,例如难以应对之前没见过的战术。


“AlphaStar很厉害,而且确实是至今为止所有《星际争霸》AI里最强的一个。”他说,“但是,《星际争霸》离‘被解决’还差了很远,而AlphaStar还远远不到世界冠军的水平。


参考文献:

1. Vinyals, O. et al. Nature  http://doi.org/10.1038/s41586-019-1724-z (2019).


原文以Google AI beats top human players at strategy game StarCraft II为标题发表在2019年10月30日的《自然》新闻上

© nature

Nature|doi:10.1038/d41586-019-03298-6

点击“阅读原文”阅读英文原文

 

点击图片阅读热门文章

 

虐了世界顶尖围棋手一周的Master,原来就是谷歌的Alphago!

邪恶的能力:肿瘤细胞或通过劫持大脑神经回路促进自身生长

ლ(・´ェ`・ლ)机器手,离哆啦A梦还有多远?

版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2019 Springer Nature Limited. All Rights Reserved

喜欢今天的内容吗?喜欢就点个“在看”吧⇣⇣

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存